Apprentissage actif pour l'annotation de documents

نویسندگان

  • Loïc Lecerf
  • Boris Chidlovskii
چکیده

RÉSUMÉ. Dans le cadre du projet LegDoc au Centre Européen de Recherche de Xerox, nous avons développé des composants pour l’annotation sémantique de documents semi-structurés. Alors que certaines entités sémantiques ont une forme régulière et peuvent être facilement extraites, d’autres collections plus complexes et hétérogénes nous ont amenés à déployer des méthodes d’apprentissage automatique. Dans les cas réels nous sommes souvent confronté au problème technique de la non disponibilité de corpus annotés, pour des tâches d’annotations spécifiques. Comme l’annotation manuelle est coûteuse et propice à l’erreur, notre approche consiste à appliquer des méthodes d’apprentissage actif afin de considérablement réduire le corpus nécessaire à l’élaboration d’un modèle pertinent. Dans cet article , nous expliquons comment le principe de l’apprentissage actif est adapté à l’annotation interactive de documents orientés mise en page. Pour une utilisation efficace de l’apprentissage actif sur les grandes collections, nous deployons un classifieur probabiliste basé sur le principe de l’entropie maximum ainsi que trois métriques d’incertitude Nous présentons le prototype ALDAI (Active Learning Document Annotation) et décrivons ses fonctionnalités ainsi que les choix d’implémentation. Le prototype offre une interface WYSIWYG, un haut langage pour la définition des attributs et intègre le composant d’apprentissage actif qui vise à assister l’utilisateur dans le processus d’annotation. Nous rapportons aussi des résultats de tests d’évaluation des techniques d’apprentissage actif sur une collection de données publiques(UCI) et une collection de documents interne.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Apprentissage actif d'émotions dans les dialogues Homme-Machine

Résumé. La prise en compte des émotions dans les interactions Homme-machine permet de concevoir des systèmes intelligents, capables de s’adapter aux utilisateurs. Les techniques de redirection d’appels dans les centres téléphoniques automatisés se basent sur la détection des émotions dans la parole. Les principales difficultés pour mettre en œuvre de tels systèmes sont l’acquisition et l’étique...

متن کامل

Apprentissage Actif avec une Méthode de Réordonnancement pour l'Indexation et la Recherche de Vidéos

Video retrieval can be done by ranking the samples according to their probability scores that were produced by classifiers. It is often possible to improve the retrieval performance by re-ranking the samples. In this paper, we proposed such a method and we combined this method with active learning for video indexing. Experimental results showed that the proposed re-ranking method was able to im...

متن کامل

Combinaison de sources de données pour l'amélioration de la prédiction en apprentissage : une application à la prédiction de la perte de poids chez l'obèse à partir de données transcriptomiques et cliniques

HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...

متن کامل

Dispositif de supervision pour les tuteurs impliqués dans un apprentissage à la gestion de projets

HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...

متن کامل

Apprentissage actif dans les processus décisionnels de Markov partiellement observables L'algorithme MEDUSA

RÉSUMÉ. Nous cherchons à adapter le cadre des Processus Décisionnels de Markov Partiellement Observables (POMDP) aux réalités de la robotique, pour établir une méthode qui effectue une prise de décision et un apprentissage optimaux lorsque l’agent ne dispose que d’un modèle approximatif d’un environnement non stationnaire. La méthode suppose l’existence d’un opérateur extérieur (oracle), capabl...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2007